在肉牛的库存中,基于计算机视觉的方法已被广泛用于监测牛状况(例如,物理,生理学和健康)。为此,准确有效的牛行动是一种先决条件。通常,大多数现有模型仅限于个人行为,这些行为使用基于视频的方法提取时空特征来识别每只牛的个体作用。但是,牛之间存在社会性,它们的相互作用通常反映了重要条件,例如Estrus以及基于视频的方法忽略了模型的实时功能。基于这一点,我们解决了本文中单个框架中牛之间的实时识别的具有挑战性的任务。我们方法的管道包括两个主要模块:牛本地化网络和交互识别网络。在每时每刻,牛本地化网络都会从每个检测到的牛输出高质量的互动建议,并将其输入具有三流体系结构的交互识别网络。这样的三流网络使我们能够融合与识别交互有关的不同功能。具体而言,这三种功能是一个视觉特征,它提取了互动建议的外观表示,这是反映牛之间空间关系的几何特征,以及一种语义特征,它捕获了我们对个人动作和相互作用之间关系的先验知识牛。此外,为了解决数量不足的标记数据问题,我们基于自我监督学习的模型预先培训。定性和定量评估证明了我们框架作为实时识别牛相互作用的有效方法的性能。
translated by 谷歌翻译
我们的目标是在新的成像条件下(例如,户外)在新的成像条件下(例如,在非常不同的条件下拍摄的图像(例如室内)时(室内),在新成像条件(例如室外)下(例如室外),在新的成像条件下(例如室外)进行分割的像素级掩盖的性能。在现实世界中,重要的是在各种成像条件下进行培训的模型都必须运行。但是,它们被现有标记的手数据集涵盖的变化是有限的。因此,有必要调整在标记的图像(源)上训练的模型,以使其具有看不见的成像条件的未标记图像(目标)。尽管已经为这两项任务开发了自我训练域的适应方法(即以自我监督的方式学习以自我监督的方式学习),但当目标图像的预测嘈杂时,它们的训练可能会降低性能。为了避免这种情况,至关重要的是,在自我训练过程中,为嘈杂的预测分配了较低的重要性(置信度)。在本文中,我们建议利用两个预测的差异来估计目标图像对这两个任务的信心。这些预测来自两个单独的网络,它们的差异有助于确定嘈杂的预测。为了将我们提出的信心估计纳入自我训练中,我们提出了一个教师学生的框架,在该框架中,两个网络(教师)为网络(学生)提供自我培训的监督,并通过知识蒸馏从学生那里学习教师。我们的实验表明,在具有不同照明,握住对象,背景和摄像机观点的适应设置中,其优于最先进的方法。与最新的对抗适应方法相比,我们的方法在HO3D上的多任务得分提高了4%。我们还验证了我们在室外成像条件下快速变化的Ego4d的方法。
translated by 谷歌翻译